深度卷积神经网络(DCNNS)在面部识别方面已经达到了人类水平的准确性(Phillips等,2018),尽管目前尚不清楚它们如何准确地区分高度相似的面孔。在这里,人类和DCNN执行了包括相同双胞胎在内的具有挑战性的面貌匹配任务。参与者(n = 87)查看了三种类型的面孔图像:同一身份,普通冒名顶替对(来自相似人口组的不同身份)和双胞胎冒名顶替对(相同的双胞胎兄弟姐妹)。任务是确定对是同一个人还是不同的人。身份比较在三个观点区分条件下进行了测试:额叶至额叶,额叶至45度,额叶为90度。在每个观点 - 差异条件下评估了从双胞胎突变器和一般冒险者区分匹配的身份对的准确性。人类对于一般撞击对比双重射手对更准确,准确性下降,一对图像之间的观点差异增加。通过介绍给人类的同一图像对测试了经过训练的面部识别的DCNN(Ranjan等,2018)。机器性能反映了人类准确性的模式,但除了一种条件以外,所有人的性能都处于或尤其是所有人的表现。在所有图像对类型中,比较了人与机器的相似性得分。该项目级别的分析表明,在九种图像对类型中的六种中,人类和机器的相似性等级显着相关[范围r = 0.38至r = 0.63],这表明人类对面部相似性的感知和DCNN之间的一般协议。这些发现还有助于我们理解DCNN的表现,以区分高度介绍面孔,表明DCNN在人类或以上的水平上表现出色,并暗示了人类和DCNN使用的特征之间的均等程度。
translated by 谷歌翻译
面部合成的进步已经提出了关于合成面的欺骗性使用的警报。合成综合性可以有效地用于欺骗人类观察者吗?在本文中,我们介绍了使用不同策略产生的合成面的人类感知的研究,包括基于最先进的深学的GaN模型。这是第一次严格研究从心理学的实验技术接地的合成面代发电技术的有效性研究。我们回答了重要的问题,如GaN的频率和更传统的图像处理的技术混淆人类观察者,并且在综合性脸部图像中有细微的线索,导致人类将其视为假冒,而无需寻找明显的线索还为了回答这些问题,我们进行了一系列大规模众群行为实验,具有不同的面膜。结果表明,人类无法在几个不同的情况下区分真实面的合成面。这一发现对面部图像呈现给人类用户的许多不同应用具有严重影响。
translated by 谷歌翻译
面部识别水平的度量对于确保专业法医面部考官和其他在应用方案中执行面部识别任务的其他人的准确和一致的表现至关重要。当前的熟练度测试依赖于静态刺激项目的集合,因此不能多次有效地对同一个人进行有效管理。要创建熟练度测试,必须组装大量“已知”难度的项目。可以构建多个相等难度的测试,然后使用项目子集。我们介绍了三合会身份匹配(TIM)测试,并使用项目响应理论(IRT)对其进行评估。参与者查看面部图像“三合会”(n = 225)(一个身份的两个图像,一个不同身份的一个图像),然后选择不同的身份。在实验1中,大学生(n = 197)在TIM测试中显示出广泛的准确性,IRT建模表明TIM项目涵盖了各种难度水平。在实验2中,我们使用基于IRT的项目指标将测试分配为特定困难的子集。模拟显示,TIM项目的子集产生了对受试者能力的可靠估计。在实验3A和3B中,我们发现学生衍生的IRT模型可靠地评估了非学生参与者的能力以及在不同的测试课程中推广的能力。在实验3C中,我们显示TIM测试性能与其他常见的面部识别测试相关。总而言之,TIM测试为开发一个灵活和校准的框架提供了一个起点,以衡量各种能力水平(例如,具有面部处理缺陷的专业人员或人群)的能力。
translated by 谷歌翻译
Previous work has shown the potential of deep learning to predict renal obstruction using kidney ultrasound images. However, these image-based classifiers have been trained with the goal of single-visit inference in mind. We compare methods from video action recognition (i.e. convolutional pooling, LSTM, TSM) to adapt single-visit convolutional models to handle multiple visit inference. We demonstrate that incorporating images from a patient's past hospital visits provides only a small benefit for the prediction of obstructive hydronephrosis. Therefore, inclusion of prior ultrasounds is beneficial, but prediction based on the latest ultrasound is sufficient for patient risk stratification.
translated by 谷歌翻译
Transfer operators offer linear representations and global, physically meaningful features of nonlinear dynamical systems. Discovering transfer operators, such as the Koopman operator, require careful crafted dictionaries of observables, acting on states of the dynamical system. This is ad hoc and requires the full dataset for evaluation. In this paper, we offer an optimization scheme to allow joint learning of the observables and Koopman operator with online data. Our results show we are able to reconstruct the evolution and represent the global features of complex dynamical systems.
translated by 谷歌翻译
Realizing when a model is right for a wrong reason is not trivial and requires a significant effort by model developers. In some cases, an input salience method, which highlights the most important parts of the input, may reveal problematic reasoning. But scrutinizing highlights over many data instances is tedious and often infeasible. Furthermore, analyzing examples in isolation does not reveal general patterns in the data or in the model's behavior. In this paper we aim to address these issues and go from understanding single examples to understanding entire datasets and models. The methodology we propose is based on aggregated salience maps. Using this methodology we address multiple distinct but common model developer needs by showing how problematic data and model behavior can be identified -- a necessary first step for improving the model.
translated by 谷歌翻译
Large language models (LLMs) have been shown to be able to perform new tasks based on a few demonstrations or natural language instructions. While these capabilities have led to widespread adoption, most LLMs are developed by resource-rich organizations and are frequently kept from the public. As a step towards democratizing this powerful technology, we present BLOOM, a 176B-parameter open-access language model designed and built thanks to a collaboration of hundreds of researchers. BLOOM is a decoder-only Transformer language model that was trained on the ROOTS corpus, a dataset comprising hundreds of sources in 46 natural and 13 programming languages (59 in total). We find that BLOOM achieves competitive performance on a wide variety of benchmarks, with stronger results after undergoing multitask prompted finetuning. To facilitate future research and applications using LLMs, we publicly release our models and code under the Responsible AI License.
translated by 谷歌翻译
创伤后应激障碍(PTSD)是一种长期衰弱的精神状况,是针对灾难性生活事件(例如军事战斗,性侵犯和自然灾害)而发展的。 PTSD的特征是过去的创伤事件,侵入性思想,噩梦,过度维护和睡眠障碍的闪回,所有这些都会影响一个人的生活,并导致相当大的社会,职业和人际关系障碍。 PTSD的诊断是由医学专业人员使用精神障碍诊断和统计手册(DSM)中定义的PTSD症状的自我评估问卷进行的。在本文中,这是我们第一次收集,注释并为公共发行准备了一个新的视频数据库,用于自动PTSD诊断,在野生数据集中称为PTSD。该数据库在采集条件下表现出“自然”和巨大的差异,面部表达,照明,聚焦,分辨率,年龄,性别,种族,遮挡和背景。除了描述数据集集合的详细信息外,我们还提供了评估野生数据集中PTSD的基于计算机视觉和机器学习方法的基准。此外,我们建议并评估基于深度学习的PTSD检测方法。提出的方法显示出非常有希望的结果。有兴趣的研究人员可以从:http://www.lissi.fr/ptsd-dataset/下载PTSD-in-wild数据集的副本
translated by 谷歌翻译
行星漫游者任务必须利用基于机器学习的感知来继续发生地球外探索,几乎没有人类的存在。火星地形细分对于漫游车导航和避免危害至关重要,以执行进一步的探索性任务,例如土壤样品收集和寻找有机化合物。当前的火星地形细分模型需要大量标记的数据才能实现可接受的性能,还需要重新培训以在不同域中的部署,即不同的漫游者任务或不同的任务,即地质识别和导航。这项研究提出了一种半监督的学习方法,该方法利用了骨干的无监督对比度预处理,用于对火星表面的多效率语义分割。该模型将通过使用混合域训练套件来确保具有多样性的混合域训练套件,从而扩展到当前的火星分割能力,以便在不同的火星漫游者任务中部署以进行地形导航。使用平均像素精度的评估结果表明,与单个领域训练和监督培训相比,半监督的混合域方法通过达到火星科学实验室的好奇心漫游者的精度为97%,MARS 2020 Perseverance Perseverance Rover提高了精度。 。此外,使用召回度量与标准的跨透镜损失相比,使用召回度量的损失功能提供不同的权重方法将对少数族裔或稀有类别的模型提高了30%以上。这些结果可以以数据效率的方式为Rover任务提供未来的多任务和多任务语义细分。
translated by 谷歌翻译
以前的无监督句子嵌入研究集中在数据增强方法上,例如辍学和基于规则的句子转换方法。但是,这些方法限制了控制句子增强观点的细粒语义。这导致监督信号不足以捕获类似句子的语义相似性。在这项工作中,我们发现使用邻居句子可以捕获相似句子之间更准确的语义相似性。基于这一发现,我们提出了RankEncoder,该发现使用了输入句子和语料库中的句子之间的关系来训练无监督的句子编码器。我们从三个角度评估rankencoder:1)语义文本相似性性能,2)相似句子对的功效,以及3)rankencoder的普遍性。实验结果表明,与先前的最新性能相比,Rankencoder达到80.07 \%Spearman的相关性,绝​​对提高了1.1%。在类似的句子对上,改进更加显着,改善了1.73%。另外,我们证明了RankEncoder普遍适用于现有的无监督句子编码器。
translated by 谷歌翻译